在这项工作中,我们研究了基于价值的深钢筋学习(DRL)中简单但普遍适用的奖励成型案例。我们表明,线性转换形式的奖励转移等同于更改函数近似中$ q $ function的初始化。基于这样的等价性,我们带来了关键的见解,即积极的奖励转移会导致保守的剥削,而负面的奖励转移会导致好奇心驱动的探索。因此,保守的剥削改善了离线RL价值估计,乐观的价值估计改善了在线RL的勘探。我们验证了对一系列RL任务的见解,并显示了其对基准的改进:(1)在离线RL中,保守的剥削可根据现成的算法提高性能; (2)在在线连续控制中,具有不同转移常数的多个值函数可用于应对探索 - 诠释困境,以提高样品效率; (3)在离散控制任务中,负奖励转移可以改善基于好奇心的探索方法。
translated by 谷歌翻译
在阻碍强化学习(RL)到现实世界中的问题的原因之一,两个因素至关重要:与培训相比,数据有限和测试环境的不匹配。在本文中,我们试图通过分配强大的离线RL的问题同时解决这些问题。特别是,我们学习了一个从源环境中获得的历史数据,并优化了RL代理,并在扰动的环境中表现良好。此外,我们考虑将算法应用于大规模问题的线性函数近似。我们证明我们的算法可以实现$ O(1/\ sqrt {k})$的次级临时性,具体取决于线性函数尺寸$ d $,这似乎是在此设置中使用样品复杂性保证的第一个结果。进行了不同的实验以证明我们的理论发现,显示了我们算法与非持bust算法的优越性。
translated by 谷歌翻译
在现实世界中的决策情况(例如金融,机器人技术,自动驾驶等)中,控制风险通常比最大程度地提高预期奖励更为重要。风险措施的最自然选择是差异,而它会惩罚上升波动率作为下行部分。取而代之的是,(下行)半变量捕获了随机变量在其平均值下的负偏差,更适合于规避风险的提议。本文旨在优化加强学习W.R.T.中的平均持续性(MSV)标准。稳定的奖励。由于半变量是时间的,并且不满足标准的贝尔曼方程,因此传统的动态编程方法直接不适合MSV问题。为了应对这一挑战,我们求助于扰动分析(PA)理论,并建立MSV的性能差异公式。我们揭示MSV问题可以通过迭代解决与策略有关的奖励功能的一系列RL问题来解决。此外,我们根据政策梯度理论和信任区域方法提出了两种派利算法。最后,我们进行了不同的实验,从简单的匪徒问题到穆约科的连续控制任务,这些实验证明了我们提出的方法的有效性。
translated by 谷歌翻译
离线增强学习(RL)定义了从静态记录数据集学习的任务,而无需与环境不断交互。学识渊博的政策与行为政策之间的分配变化使得价值函数必须保持保守,以使分布(OOD)的动作不会被严重高估。但是,现有的方法,对看不见的行为进行惩罚或与行为政策进行正规化,太悲观了,这抑制了价值功能的概括并阻碍了性能的提高。本文探讨了温和但足够的保守主义,可以在线学习,同时不损害概括。我们提出了轻度保守的Q学习(MCQ),其中通过分配了适当的伪Q值来积极训练OOD。从理论上讲,我们表明MCQ诱导了至少与行为策略的行为,并且对OOD行动不会发生错误的高估。 D4RL基准测试的实验结果表明,与先前的工作相比,MCQ取得了出色的性能。此外,MCQ在从离线转移到在线时显示出卓越的概括能力,并明显胜过基准。
translated by 谷歌翻译
离线增强学习(RL)提供了一个有希望的方向,可以利用大量离线数据来实现复杂的决策任务。由于分配转移问题,当前的离线RL算法通常被设计为在价值估计和行动选择方面是保守的。但是,这种保守主义在现实情况下遇到观察偏差时,例如传感器错误和对抗性攻击时会损害学习政策的鲁棒性。为了权衡鲁棒性和保守主义,我们通过一种新颖的保守平滑技术提出了强大的离线增强学习(RORL)。在RORL中,我们明确地介绍了数据集附近国家的策略和价值函数的正则化,以及对这些OOD状态的其他保守价值估计。从理论上讲,我们表明RORL比线性MDP中的最新理论结果更紧密地构成。我们证明RORL可以在一般离线RL基准上实现最新性能,并且对对抗性观察的扰动非常强大。
translated by 谷歌翻译
室内视频中的头部检测是许多真实应用的重要组成部分。虽然深层模型在一般物体检测中取得了显着进展,但它们在复杂的室内场景中不足以满足。室内监控视频通常包括杂乱的背景对象,其中头部有小尺度和不同的姿势。在本文中,我们提出了运动感知伪暹罗网络(MPSN),一种端到端的方法,利用头部运动信息来引导深层模型来提取室内场景中的有效头特征。通过将相邻帧的像素明显差异作为辅助输入,MPSN有效地增强了人头运动信息并消除了背景中的无关物体。与现有方法相比,它在两个室内视频数据集中实现了卓越的性能。我们的实验表明,MPSN成功地抑制了静态背景对象,并突出了移动实例,尤其是室内视频中的人类头部。我们还比较不同的方法来捕获头部运动,这表明MPSN的简单性和灵活性。最后,为了验证MPSN的稳健性,我们对鲁棒模型选择的小扰动的数学解决方案进行对抗性实验。代码可在https://github.com/pl-share/mpsn获得。
translated by 谷歌翻译
大多数加固学习算法优化了折扣标准,这些标准是有益的,可以加速收敛并降低估计的方差。虽然折扣标准适用于诸如财务相关问题的某些任务,但许多工程问题同样对待未来的奖励,并更喜欢长期的平均标准。在本文中,我们研究了长期平均标准的强化学习问题。首先,我们在折扣和平均标准中制定统一的信任区域理论,并在扰动分析(PA)理论中导出信托区域内的新颖性能。其次,我们提出了一种名为平均策略优化(APO)的实用算法,其提高了名为平均值约束的新颖技术的值估计。最后,实验在连续控制环境Mujoco中进行。在大多数任务中,APO比折扣PPO更好,这表明了我们方法的有效性。我们的工作提供了统一的信任地区方法,包括折扣和平均标准,这可能会补充折扣目标超出了钢筋学习的框架。
translated by 谷歌翻译
Underwater automatic target recognition (UATR) has been a challenging research topic in ocean engineering. Although deep learning brings opportunities for target recognition on land and in the air, underwater target recognition techniques based on deep learning have lagged due to sensor performance and the size of trainable data. This letter proposed a framework for learning the visual representation of underwater acoustic imageries, which takes a transformer-based style transfer model as the main body. It could replace the low-level texture features of optical images with the visual features of underwater acoustic imageries while preserving their raw high-level semantic content. The proposed framework could fully use the rich optical image dataset to generate a pseudo-acoustic image dataset and use it as the initial sample to train the underwater acoustic target recognition model. The experiments select the dual-frequency identification sonar (DIDSON) as the underwater acoustic data source and also take fish, the most common marine creature, as the research subject. Experimental results show that the proposed method could generate high-quality and high-fidelity pseudo-acoustic samples, achieve the purpose of acoustic data enhancement and provide support for the underwater acoustic-optical images domain transfer research.
translated by 谷歌翻译
在深海勘探领域,声纳目前是唯一有效的长距离传感装置。复杂的水下环境,如噪声干扰,低目标强度或背景动态,对声纳成像带来了许多负面影响。其中,非线性强度的问题非常普遍。它也被称为声学传感器成像的各向异性,即当自主水下车辆(AUV)携带声纳从不同角度检测到相同的目标时,图像对之间的强度变化有时非常大,这使得传统匹配算法成为了传统的匹配算法几乎无效。但是,图像匹配是诸如导航,定位和映射等综合任务的基础。因此,获得稳健和准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深卷积特征的组合匹配方法。它具有两个出色的优势:一个是深度卷积特征可用于衡量声纳图像的本地和全球位置的相似性;另一种是可以在声纳图像的关键目标位置执行本地特征匹配。该方法不需要复杂的手动设计,并以关闭端到端的方式完成非线性强度声纳图像的匹配任务。特征匹配实验在AUV捕获的深海声纳图像上进行,结果表明我们的提议具有卓越的匹配精度和鲁棒性。
translated by 谷歌翻译
在深海勘探领域,声纳目前是唯一有效的长距离传感装置。复杂的水下环境,如噪声干扰,低目标强度或背景动态,对声纳成像带来了许多负面影响。其中,非线性强度的问题非常普遍。它也被称为声学成像的各向异性,即,当AUV携带声纳从不同角度检测到相同的目标时,图像对之间的强度差值有时非常大,这使得传统的匹配算法几乎无效。但是,图像匹配是诸如导航,定位和映射等综合任务的基础。因此,获得稳健和准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深卷积特征的组合匹配方法。它有两个出色的优势:一个是,可以使用深度卷积功能来衡量声纳图像的本地和全球位置的相似性;另一种是可以在声纳图像的关键目标位置执行本地特征匹配。该方法不需要复杂的手动设计,并以关闭端到端的方式完成非线性强度声纳图像的匹配任务。特征匹配实验在AUV捕获的深海声纳图像上进行,结果表明我们的建议具有良好的匹配准确性和鲁棒性。
translated by 谷歌翻译